VIP STUDY сегодня – это учебный центр, репетиторы которого проводят консультации по написанию самостоятельных работ, таких как:
  • Дипломы
  • Курсовые
  • Рефераты
  • Отчеты по практике
  • Диссертации
Узнать цену
Главная / Рефераты / Полнотекстовые информационно-поисковые системы

Полнотекстовые информационно-поисковые системы

Процессы компьютеризации деятельности предприятии привели к накоплению большого объема неструктурированной текстовой информации. Возникла потребность в программном обеспечении, реализующем эффективный поиск информации. Информационно-поисковые каталоги, фасетные и тезаурусные системы не могли быть в ПОЛНОЙ мере использованы в массовой персональной автоматизации. Потребовались средства, которые бы в Максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий [14]. В результате на рынке программных продуктов появились полнотекстовые ИС. 167 Полнотекстовые ПС строятся на основе информационно-поисковых языков дескрипторного типа. Информационно-технологическая структура полнотекстовых ИС включает [14]: ¦ хранилище документов; ¦ глобальный словарь системы; ¦ инвертированный индекс документов; ¦ интерфейс ввода документов в систему; ¦ механизм индексирования; ¦ интерфейс запросов пользователя; ¦ механизм поиска документов; ¦ механизм извлечения найденных документов. Хранилище документов может быть организовано как единая локально сосредоточенная информационная структура в виде специального файла с текстами документов. Глобальный словарь системы может быть статическим и динамическим. Статические словари определяются заранее и не зависят от содержания документов, вошедших в хранилище. Динамические словари определяются набором словоформ, имеющихся в документах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы. менты глобального словаря выступают в качестве дескрипторов ИПЯ-системы. Поступающие через интерфейс ввода-вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых ИС полностью автоматизирован и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером из глобального словаря [14]. Существенное влияние на эффективность полнотекстовых ИС оказывает морфологический разбор при индексировании документов и запросов. Морфологический разбор позволяет выделять общую для однокоренных слов словоформу, а также выделять лексемы, т. е. слова, отличающиеся окончаниями, приставками и суффиксами. В результате индексирования поисковый образ каждою нового документа представляется набором словоформ из глобального словаря, присутствующих в тексте документа, и поступает в виде соответствующего двоичного вектора для дополнения индекса системы. Индекс 161 строится по инвертированной схеме и в двоичном виде отражает весь (полный) текст учтенных или накопленных документов [14]. При удалении документа из системы соответственно удаляется и поисковый образ документа. Через интерфейс запросов пользователь в терминах ИПЯ делает запрос, который обрабатывается поисковой машиной. Механизм поиска основывается на тех или иных алгоритмах и критериях сравнения поискового образа запроса с ПОИСКОВЫМИ образами документов, образующими индекс системы. Результатом поиска является определение номеров документов, поисковые образы которых соответствуют поисковому образу запроса. Далее специальная подсистема па основе установленных в хранилище указательных конструкций извлекает и доставляет соответствующие документы пользователю [14]. Примером полнотекстовых информационно-поисковых систем являются автоматизированные информационные системы по законодательству. Автоматизированная информационная система по законодательству (АИСЗ) — это программный комплекс, включающий в себя массив правовой информации и инструменты для работы с ним [37]. Эти инструменты позволяют производить поиск документов, формировать подборки документов, печатать документы. АИСЗ являются частью следующих типов информационных систем [37]. 1. Справочно-информационные системы общего назначения, ориентированные на доступ пользователей к нормативно-правовым гам. К этим системам относятся «Консультант Плюс», «Гарант», «Кодекс» и др. 2. Глобальные информационные службы (хост-системы), предо- ставляющие доступ удаленным пользователям к библиографической, полнотекстовой или другой информации. Крупнейшей в мире коммерческой службой, обеспечивающей доступ к юридической информации, является система LEXIS (США). 3. Системы информационной поддержки деятельности правотворческих органов. Спецификой таких систем является необходимость хранения и поиска многих версий и редакций нормативно- правовых документов, с учетом вносимых поправок и изменений. 1. Системы автоматизации делопроизводства судов, милиции и других правоохранительных органов. Основными особенностями АИСЗ являются [37]: 169 ¦ необходимость предоставления адресного доступа к полным текстам; ¦ в информационных языках для поиска в БД по законодательству необходим учет контекстных связей, регламентированных при- лагательных (типа «обязательный», «произвольный» и др.); ¦ тексты нормативных актов должны подвергаться так называемой юридической обработке, при которой тексту приписываются не только классификационные индексы, ключевые слова или дескрипторы (как при обычном индексировании), но и комментарии специалистов, ссылки на предшествующие версии, связанные документы, решения СУДОВ И др. В 1992 году образовалось НПП «Гарант-Сервис». В этом же году была создана общероссийская сеть «Консультант Плюс», которая охватила множество ГОРОДОВ России. В настоящее время наиболее распространена АИСЗ «Консультант Плюс». Система «Гарант» занимает второе место в России по количеству пользователей. На третьем месте находится достаточно популярный продукт — информационно поисковая система «Кодекс», которая разработана малым государственным предприятием «Центр компьютерных разработок». На российском рынке АИСЗ представлены также следующие про- дукты, созданные государственными предприятиями для обеспечения потребностей в правовой информации государственных ведомств [52]: ¦ «Эталон» (НЦПИ при Министерстве юстиции РФ); ¦ «Система- (НТЦ «Система - при ФАПСИ). Кроме того, на российском рынке представлены такие системы, как [52]: ¦ «ЮСИС» (фирма «Инталекс»); ¦ «Референт» (ЗАО «Референт-Сервис»); ¦ «Ваше право» и «Юрисконсульт» (фирма «Информационные системы и технологии»); ¦ «1С: Кодекс», «1С: Гарант». «1С: Эталон» (компания «1С»). Информационные банки РФ включают следующие уровни данных: ¦ федеральное законодательство; ¦ местное законодательство; ¦ ненормативные материалы (консультации экспертов, бланки деловых документов, проспекты эмиссии пенных бумаг коммерческих банков и т. п.). 170. При юридической обработке (индексировании) используется Общеправовой классификатор отраслей законодательства, утвержденный указом президента РФ № 2171 от 16 декабря 1993 года [37], Существуют два источника получения правовой информации разработчиком для включения в систему: официальная рассылка подписавшего ведомства и опубликование в периодической печати. Официальная рассылка — основной источник информации для систем «Консультант Плюс". «Гарант» и «Кодекс». Следует заметить, что государственные органы выступают не только в качестве источников информации, НО И сами ЯВЛЯЮТСЯ пользователями систем, т. е. прямо заинтересованы в оперативном и достоверном пополнении информационного банка. Поэтому, как правило, документы передаются из органов государственной власти сразу же после их подписания. Сеть «Консультант Плюс» имеет прямые договоры об обмене информацией с ОСНОВНЫМИ федеральными органами (среди них— Ад министрация Президента РФ, Министерство финансов РФ, Центральный банк РФ, Федеральная налоговая служба и др.), а гаю местными органами власти. Благодаря аналогичным договорам, нормативные акты достаточно оперативно попадают и в систему «Гарант» [37,52]. Юридическая база < Кодекс» ведется при содействии юридического комитета мэрии Санкт Петербурга. Документы для данной системы поступают в «Центр компьютерных разработок" на основе договоров не напрямую с органами власти, а с их представительствами в Санкт-Петербурге [37, 52]. Публикации в печатных изданиях. Выделяют три группы таких источников. К первой относятся все издания, в которых публикация нормативных актов считается официальной: «Бюллетень международных договоров», < Вестник ЦБ РФ», «Российская газета», <• Российские вести» и др. Вторую группу составляют издания, не признанные официальными, но в состав учредителей которых входят российские министерства и ведомства: «Бюллетень Верховного суда РФ», «Финансовая газета» и т. д. Наконец, в третью Группу входят издания, публикация документов в которых считается достоверной. Такие издания или имеют достаточно большой тираж, или пользуются авторитетом вереде специалистов: «Закон», «Хозяйство и право», «Экономика и жизнь» и др. [37J. Основными параметрами, позволяющими определить качество содержания информационной базы, являются [52]: 171 ¦ полнота информации; ¦ достоверность информации; ¦ оперативность обновления информации. Параметры, характеризующие качество программной оболочки: ¦ поисковые ВОЗМОЖНОСТИ системы: ¦ средства актуализации информации; ¦ дополнительные сервисные функции. Оценка полноты, достоверности и оперативности обновления информации основывается на количественных показателях. Оценка же качества юридической обработки поступающих в информационный банк документов достаточно субъективна. Без юридической обработки АИСЗ является всего лишь электронным аналогом бумажных изданий. Еe цель систематизация документов для повышения эффективности их дальнейшего использования. Юридическая обработка обычно состоит из следующих основных этапов [52]: ¦ Классификация документов; ¦ выявление взаимосвязей между различными документами; ¦ составление Примечаний к документу. Классификация документов предназначена для последующего их поиска по некоторым признакам, формальным или неформальным. Классификация производится на основании классификатора данной системы. Как известно, классификатор — это иерархическая структура, содержащая все понятия, используемые для описания документов, ВХОДЯЩИХ в информационную базу. Доступ пользователя к информации, хранящейся в АИСЗ, может осуществляться двумя способами, каждый на которых имеет свои достоинства и недостатки [37]: ¦ работа с удаленной базой; ¦ работа с локальной базой. При работе с удаленной базой пользователю нет необходимости хранить на своем компьютере данные системы, они хранятся на сервере разработчика и доступны через сеть. Большинство АИСЗ имеют версии, доступные через глобальную сеть Интернет. Основное преимущество работы с такими версиями заключается в том, что пользователь всегда имеет доступ к самым последним данным [37]. Однако для работы с удаленной базой пользователю необходим доступ к Интернету. Зачастую скорость передачи информации через 172 Интернет низкая из-за плохого качества каналов, а стоимость доступа достаточно высокая. Поэтому иногда более выгоден вариант работы с локальной базой, которая доступна в любой момент. Недостатком этого варианта по сравнению с предыдущим является более продолжительный период актуализации информации. Контрольные вопросы 1. В чем заключались предпосылки появления и распространения ДИС? 2. Дайте понятие ДИС. Какие различают группы ДИС? 3. Охарактеризуйте функционирование ДИС на основе индексирования. 4. Дайте понятие информационно-поискового языка. Назовите элементы ИПЯ. 5. Назовите виды ИПЯ. 6. Охарактеризуйте системы перечислительной, систематизированной, фасетной классификации. 7. Назовите дескрипторные информационно-поисковые языки. Дайте понятие дескриптора 8. Охарактеризуйте структуру информационно-поискового тезауруса 9. Дайте классификацию ИПЯ. 10. Охарактеризуйте подходы к автоматическому индексированию. 11. Охарактеризуйте полнотекстовые информационно-поисковые системы. 12. Дайте понятие автоматизированной информационной системы по законодательству. 13. Перечислите особенности и качественные характеристики АИСЗ. 11. Назовите источники пополнения документальной базы АИСЗ. 15. В чем заключается сущность юридической обработки документов, помещаемых в базу АИСЗ?

Каталог работ Узнать цену


Похожие рефераты:

Отзывы

Выражаю благодарность репетиторам Vip-study. С вашей помощью удалось решить все открытые вопросы.

Далее
Узнать цену Вашем городе
Выбор города
Принимаем к оплате
Информация
Наши преимущества:

Оформление заказов в любом городе России
Оплата услуг различными способами, в том числе через Сбербанк на расчетный счет Компании
Лучшая цена
Наивысшее качество услуг

Сотрудничество с компаниями-партнерами

Предлагаем сотрудничество агентствам.
Если Вы не справляетесь с потоком заявок, предлагаем часть из них передавать на аутсорсинг по оптовым ценам. Оперативность, качество и индивидуальный подход гарантируются.